木鸟杂记 - 分布式系统，数据库，存储

6.824 - Raft 实现（二）：日志同步（Log Replication）

发表于 2018-08-29 分类于分布式系统， Raft

前言

上一次在做完 lab2a 即 raft 的 leader 选举之后，一直卡在日志同步这一块（log replication）；直到昨晚进行了一下 appendEntries 的优化（prevLog 不匹配时，一下跳过本 term 所有 logEntries），一直困扰的 TestBackup2B 竟然神奇 Passed 的了。跑了两遍还不大信，特地将其改回去，看到果然 Fail 才放心下来，看来是效率太低超时了。

趁着还新鲜，索性今晚就将这一段时间的血泪史记下来吧。

阅读全文 »

6.824 - Raft 实现（一）：Leader选举

发表于 2018-07-11 分类于分布式系统， Raft

概述

记录下在实现6.824 lab2 raft 的一些想法和经验，聊以备忘。

实验概述

6.824是MIT的一门分布式课程，我跟的是2018 spring 。在第二个实验中要求简单实现一个分布式一致性协议–raft。

这是一个专为方便教学和工程实现所设计的协议，它将协议拆解为几个相对独立的模块–leader选举，log复制，安全保证。论文里图二基本给出了Raft的所有实现细节，可谓字字珠玑。但也因为太微言大义了，导致有些状态转换分散在不同描述中，假如你真只照着这幅图实现，很容易遗漏些细节。

阅读全文 »

数据结构与算法（二）：二分搜索

发表于 2018-03-11 更新于 2023-07-31 分类于数据结构

概述

以前对二分查找的认识只停留在有序数组查找给定整数上，后来发现一类问题都可以用二分的思想来做，概括来说就是：如果要求的结果所在的集合（值域）和要搜索的数的集合（定义域）存在单调（映射）关系，就可以通过二分思想来解决，说起来有点抽象，后面将用几个例子来说明。

二分思想以其每次迭代将规模砍一半的效率，有着极其广阔的应用。

本文分两大部分，第一部分对二分查找的各个细节探讨；第二部分拓展二分查找为一般的二分思想。

阅读全文 »

Hadoop源码阅读之MapReduce（一）：基本概念和接口

发表于 2018-02-24 分类于源码阅读， Hadoop

概述

梳理一下MapReduce框架涉及到的一些基本接口和类。

阅读全文 »

数据结构与算法（一）：二叉树的非递归遍历

发表于 2018-02-24 分类于数据结构

概述

最近在琢磨关于树的非递归遍历的一些思路和对应的实现，写在这里，聊以备忘。

阅读全文 »

Android 学习笔记（二）：代码组织

发表于 2017-12-12 分类于 APP开发

问题

在进行模块化的时候，试图将诸如SearchListener, CallManager 的模块从MainActivity中拆出来，然而在响应事件的时候，不可避免的需要改变其他资源状态，那么就需要获取其句柄。由此还需要把MainActivity作为句柄传入代码。

阅读全文 »

Android 学习笔记（一）：搜索框的实现

发表于 2017-12-02 分类于 APP开发

目标

输入关键字，实时显示搜索结果。

阅读全文 »

一些设计模式

发表于 2017-08-03 分类于编程语言

写程序的时候，规模小，尚不能感觉设计模式的重要性。等规模一上来，需求一迭代，一个应用了恰当设计模式的工程，总能以最小的代价进行最快的迭代。
但是一个奇怪的点是，我总记不住具体的实现所对应的设计模式的名字，但是对他们背后的设计思想，却是念念不忘——依赖于抽象而非具体；对扩展开放，对修改关闭；

阅读全文 »

Hadoop 源码阅读之DFS（三）：FileSystem

发表于 2017-07-23 分类于源码阅读， Hadoop

FileSystem

FileSystem是一个抽象基类，为LocalFileSystem和DistributedFileSystem提供一些公共方法。通过HashMap:name-> filesystem，维护所有使用的的文件系统，其key或者为“Local”，或者为“Host:Port”（标识一个NameNode）。
继承了Configured类，可以通过配置加载一些基本参数，保存在Configuration中。
为了提高可靠性，给每个文件生成一个校验和，保存在.*.crc的隐藏文件中。

一些有意思的细节

发表于 2017-07-15 分类于编程语言， Java

编程中有很多有意思的细节，看到了，就记在这里。

`|` 简化判断

一堆数按位或，只要有多于一个数为负，则结果为负。

public void write(byte b[], int off, int len) throws IOException {
   if ((off | len | (b.length - (len + off)) | (off + len)) < 0)
       throw new IndexOutOfBoundsException();

   for (int i = 0 ; i < len ; i++) {
       write(b[off + i]);
   }
}

from: FilterOutputStream

Hadoop 源码阅读之DFS（二）：DataNode

发表于 2017-07-11 分类于源码阅读， Hadoop

上一篇把一些零碎的小类集在一起，凑成一篇。这篇打算对比较长的一个类DataNode读读。
每个DataNode代表一个数据节点，对应某台机器的一个文件夹，本质上是一定数量的Block的集合，能够和NameNode，client以及其他DataNode进行通信，以对该Block集合进行操作，主要包括client的读和写，其他DataNode block的复制，以及响应NameNode操作，进行删除等操作。
具体实现来说，数据结构上，维持了一个block到byte array的表；执行时，DataNode内部是一个无限循环，不断询问NameNode，报告状态（心跳），执行命令（RPC）。

状态信息。[DataNodeInfo](/hadoop-source-DFS#datanode-info)：总大小，剩余大小，上次更新时间。
执行命令。
- 客户端读写Blocks
- 让其他DataNode复制Blocks
- 删除某些Blocks

此外，DataNode还维持着一个Server Socket以处理来自Client或者其他DataNode请求。DataNode会将其对外暴露的host:port提交给NameNode，后者会将该信息进一步下发给相关的其他DataNode或者client。
(摘自类注释)

阅读全文 »

Hadoop 源码阅读之DFS（一）：一些基本的类

发表于 2017-07-02 更新于 2017-07-03 分类于源码阅读， Hadoop

计划花一个月左右的时间，通读一遍Hadoop 0.1.0的源码，尽量少写一些废话，多记录一些思考。

Random一下，就从分布式文件系统（DFS）开始吧。
DFS即分布式文件系统，集合多台机器存储在预定义位置上的一组文件作为存储构件，在此基础上实现一些分布式操作，从而对外抽象出一套基本文件读写API。

阅读全文 »

前言

概述

实验概述

概述

概述

概述

问题

目标

FileSystem

| 简化判断

`|` 简化判断